Nell'analisi dei dati, il rilevamento delle anomalie (anche detto rilevamento degli outlier)[1] è l'identificazione di osservazioni, elementi, eventi rari che differiscono in modo significativo dalla maggior parte dei dati.[1] Tipicamente gli elementi anomali porteranno a qualche tipo di problema, ad esempio casi di frode bancaria, difetti strutturali, problemi medici o errori in un testo. Le anomalie sono indicate anche come outlier, novelty, rumore, deviazioni o eccezioni.[2]
In particolare, nel contesto del rilevamento di abusi e intrusioni di rete, gli elementi anomali spesso non sono elementi che occorrono raramente, ma piuttosto picchi di attività inaspettati. Questo pattern non corrisponde alla definizione statistica comune di un valore anomalo come oggetto raro e molti metodi di rilevamento dei valori anomali (in particolare metodi non supervisionati) falliranno su tali dati, a meno che non siano stati aggregati in modo appropriato. Invece, un algoritmo di analisi dei cluster potrebbe essere in grado di rilevare i micro cluster formati da questi pattern.[3]
Esistono tre grandi categorie di tecniche di rilevamento delle anomalie, a seconda di quanto supervisionato l'algoritmo.[4] Le tecniche non supervisionate rilevano le anomalie in un dataset di prova non etichettato partendo dal presupposto che la maggior parte delle istanze nel dataset siano normali e cercando le istanze che sembrano adattarsi meno al resto dei dati. Le tecniche supervisionate, invece, richiedono dataset etichettati come "normale" e "anormale" e comportano l'addestramento di un classificatore (la differenza fondamentale rispetto a molti altri problemi di classificazione statistica è la natura intrinseca sbilanciata del rilevamento dei valori anomali). Infine, le tecniche di rilevamento semi-supervisionate, a partire da un determinato dataset, costruiscono un modello che rappresenta il comportamento "normale", e quindi, data un'istanza di test, verificano la probabilità che questa venga generata dal modello costruito.
© MMXXIII Rich X Search. We shall prevail. All rights reserved. Rich X Search